Part 06-Module 01-Lesson 05_蒙特卡洛方法

01. 简介
02. 迷你项目：蒙特卡洛方法 (OpenAI Gym-BlackjackEnv)
03. MC 预测：状态值
04. 实现
05. 迷你项目：蒙特卡洛方法（第 0 和 1 部分）
06. MC 预测：动作值
07. 实现
08. 迷你项目：蒙特卡洛方法（第 2 部分）
09. 广义策略迭代
10. MC 控制：增量均值
11. 练习：增量均值
12. MC 控制：策略评估
13. MC 控制：策略改进
14. 练习：Epsilon 贪婪策略
15. 探索与利用
16. 实现
17. 迷你项目：蒙特卡洛方法（第 3 部分）
18. MC 控制：常量 α（第 1 部分）
19. MC 控制：常量 α（第 2 部分）
20. 实现
21. 迷你项目：蒙特卡洛方法（第 4 部分）
22. 总结

udacimak v1.4.0